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基于 改进 多 层次 模糊 关联 规则 的 定量 数据 挖掘 算法 ， 
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摘 要 : 针对 单一 层次 结构 实现 规则 提取 ， 具 有 规则 提取 准确 性 不 高 ， 算 法 运行 时 间 长 ， 难 以 满足 用 户 使 用 需求 的 问 
题 ， 提 出 一 种 基于 改进 多 层次 模糊 关联 规则 的 定量 数据 挖掘 算法 。 采 用 高 频 项 目 集合 ， 通 过 不 断 深化 迭代 的 方法 形成 
自 顶 向 下 的 挖掘 过 程 ， 整 合 模糊 集合 理论 、 数 据 挖掘 算法 以 及 多 层次 分 类 技术 ， 从 事务 数据 集中 寻找 模糊 关联 规则 ， 
挖掘 出 储存 在 多 层次 结构 事务 数据 库 中 定量 值 信息 的 隐 含 知识 ， 实 现 用 户 的 定制 化 信息 挖 气 需 求 。 实 验 结果 表明 ， 提 
出 的 数据 挖 据 算法 在 挖 据 精 度 和 运算 时 间 方 面相 较 于 其 他 算法 具有 突出 优势 ， 可 为 多 层次 关联 规则 提取 方法 的 实际 应 
用 带 来 突破 性 进展 。 
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Quantitative data mining algorithm based on improved multi-level fuzzy association rules 
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Abstract: In order to extract rules from a single hierarchy, the accuracy of the rule extraction is not high, the algorithm runs 
long, and it is difficult to meet the needs of the users, this paper proposes a quantitative data mining algorithm based on the 
improved multilevel fuzzy association rules, adopt the high frequency project set, form the continuous deepening of the iterative 
method. In the top down mining process, fuzzy set theory, this method integrates data mining algorithm and multi-level 
classification technology to find fuzzy association rules from the transaction data set, excavates the hidden knowledge of 
quantitative value information in the multi-layer structured transaction database, and realizes the user's customized information 
mining needs. The experimental results show that the quantitative data mining algorithm based on the improved multilevel fuzzy 
association rules has a prominent advantage over other algorithms in mining precision and operation time. It can bring about 
breakthrough in the practical application of multilevel association rule extraction. 
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并 取得 了 较 好 的 应 用 效果 丫 。 例 如 ， 超 市 的 管理 人 员 可 以 使 
关联 挖掘 有 效 预测 人 们 更 倾向 于 一 起 购买 的 商品 组 合 ， 类 似 于 


H 


近年 来 ， 随 着 数据 科学 领域 理论 体系 和 算法 的 日 益 完善 ， “购买 纸尿裤 的 顾客 通常 也 会 购买 啤酒 "之 类 的 关联 规则 就 可 
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于 数据 算法 的 科学 研究 理论 正 逐 渐 成 为 学 术 界 和 工业 界 的 关 ”被 挖掘 出 来 。 基 于 这 些 关 联 规则 ， 超 市 的 管理 人 员 可 以 将 啤 : 


注 焦 点 由 。 其 中 ， 数 据 挖掘 理论 作为 数据 关系 信息 提取 的 重要 和 纸尿裤 摆 放 在 超市 相近 的 位 置 来 诱导 顾客 同时 购买 。 可 见 ， 


方法 而 成 为 数据 科学 领域 研究 的 重点 。 根 据 所 挖掘 数据 信息 的 ”关联 规则 的 定量 数据 挖掘 研究 意义 重大 。 
不 同 ,可 以 将 数据 挖掘 方法 进一步 细 分 为 关联 挖掘 、 分 类 挖掘 、 se 


聚 类 挖掘 以 及 序列 挖掘 等 所 。 关 联 挖 掘 是 数据 挖掘 的 重要 类 型 ， 算法 通过 逐步 产生 并 测试 候选 项 目 集合 实现 5。 然 而 


= 


以 


U 


过 程 


该 方法 主要 用 于 确定 事务 数据 库 中 不 同 项 目 之 间 的 相关 性 。 关 de 
联 挖掘 方法 已 被 广泛 应 用 于 市 场 规划 和 营销 策略 制定 等 领域 ， 着 关联 挖掘 数据 样本 容量 呈现 指数 级 增长 趋势 ，Aprior 算法 所 
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耗费 的 高 昂 时 间 成 本 已 成 为 关联 挖掘 研究 领域 吸 待 解决 的 关键 
问题 器 。 因 此 ， 文 献 [7] 提 出 关联 规则 需要 满足 自信 度 和 支持 度 
两 种 用 户 特 定 的 约束 度 ， 以 降低 数据 挖掘 的 计算 时 间 。 其 中 ， 
支持 度 定义 为 事务 集中 满足 条 件 的 事务 所 占 的 比例 ， 而 自信 度 
定义 为 满足 条 件 的 事务 支持 度 与 事务 集 支 持 度 的 比值 。 

此 外 ， 目 前 绝 大 多 数 关联 规则 算法 研究 成 果 都 仅仅 着 眼 于 
单一 概念 层次 挖掘 , 对 于 多 概念 层次 挖掘 较 少 涉及 , 如 文献 [8]、 
文献 [9] 的 算法 。 文 献 [10] 提 出 模糊 挖掘 算法 ， 应 用 多 层次 关联 
挖掘 ， 从 关联 挖掘 方法 实际 应 用 需求 角度 出 发 ， 为 用 户 提供 更 
多 有 价值 的 信息 。 但 是 在 提供 应 对 多 余 规 则 的 解决 方案 时 ， 和 连 
代 算 法 复杂 ， 需 要 耗费 较 高 计算 资源 。 
针对 上 述 研究 现状 ， 提 出 一 种 基于 改进 多 层次 模糊 关联 规 
则 的 挖掘 算法 ， 可 用 于 提取 定量 数据 中 的 隐 含 信息 。 该 方法 采 
高 频 项 目 集合 ， 通 过 不 断 深化 迭代 的 方法 形成 自 顶 向 下 的 挖 
掘 过 程 。 算 法 整合 了 模糊 集合 理论 、 数 据 挖掘 算法 以 及 多 层次 
分 类 技术 ， 着 眼 于 从 事务 数据 集中 寻找 模糊 关联 规则 。 实 验 结 
合 具 体 算 例 验证 该 算法 的 优越 性 ， 对 于 用 户 来 说 ， 该 方法 挖掘 
得 到 的 规则 更 具有 远 辑 性 ， 且 更 符合 人 类 思维 认 知 。 


1 ”提出 的 改进 多 层次 模糊 关联 规则 挖掘 算法 


为 了 挖掘 多 层次 关联 规则 ， 需 要 对 项 目 进行 分 类 或 者 对 概 
念 的 层次 结构 进行 有 效 定义 00。 其 中 概念 的 层次 结构 可 以 从 一 
个 有 向 无 环 图 (directed acyclic graph, DAG) 0 复制 得 到 。 概 念 
的 层次 结构 代表 项 目的 通路 与 需求 之 间 的 关系 ， 并 能 将 它们 在 
不 同 的 抽象 层级 上 分 类 。 这 些 概念 层次 具有 可 用 性 ， 或 者 可 以 
通过 某 一 领域 的 专家 应 用 得 到 。 例 如 一 个 用 户 通 常 不 仅 关心 电 
脑 与 打印 机 之 间 的 关联 ， 而 更 希望 得 到 台式 电脑 的 价格 与 激光 
打印 机 的 价格 之 间 的 关联 。 此 外 ， 模 糊 理论 03 对 于 多 层次 关联 
挖掘 方法 的 研究 具有 一 定 借鉴 意义 ， 这 一 理论 提出 通过 引入 渐 
进 成 员 关 系 来 表征 语言 术语 的 模糊 边界 04。 

因此 ， 为 实现 定量 数据 集中 多 层次 关联 规则 的 有 效 挖掘 
将 基于 分 类 学 理论 成 果 053， 提 出 一 种 改进 的 模糊 挖掘 算法 。 这 
算法 综合 利用 数据 挖掘 方法 、 多 层次 分 类 理论 以 及 隶属 函数 
定义 ， 可 用 于 在 给 定 的 事务 数据 集中 挖掘 模糊 关联 规则 。 
1.1 改进 多 层次 关联 规则 
在 多 概念 层次 上 挖掘 关联 规则 可 能 会 获得 更 具 普 
用 性 的 规则 。 具 体 项 目的 分 类 在 实际 应 用 场景 中 通常 是 预先 定 


og 


义 ， 并 且 能 够 用 结构 树 进行 表示 的 。 结 构 树 的 终端 节点 代表 事 
务 中 出 现 的 实际 项 目 ， 内 部 节点 表示 低层 次 节点 所 形成 的 概念 
或 类 别 。 


在 图 1 中 ， 根 节点 位 于 第 0 级 ， 表 示 分 类 的 内 部 节点 〈 如 
饮料 ) 位 于 第 1 级 ， 表 示 口 味 的 内 部 节点 〈 如 柠檬 味 ) 位 于 第 
2 级 ， 而 表示 品牌 《如 可 口 可 乐 ) 的 终端 节点 位 于 第 3 级 。 最 
终 在 算法 流程 中 只 有 终端 节点 出 现在 事务 中 。 在 预定 义 的 分 类 
中 ， 根 据 在 结构 树 中 所 处 的 位 置 ， 各 节点 首先 被 编码 为 数字 和 
符号 “*” 的 组 合 。 例 如 ,图 1 中 的 内 部 节点 “果汁 ”被 编码 为 1**， 
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内 部 节点 “草莓 味 ” 被 编码 为 11*, 终端 节点 “汇源 ”被 编码 为 111。 


饮料 
pe ei 
困 和 ee 碳酸 饮料 
草莓 味 …… 葡萄 味 迫 六 
po 
SY ~ 


图 1 基于 饮料 分 类 的 结构 树 编码 示意 图 
1.2 多 层次 模糊 关联 挖掘 算法 建立 
多 层次 模糊 关联 挖掘 算法 的 算法 建立 步骤 如 下 所 示 : 

利用 数据 集 和 符号 “*”* 组 成 的 符号 序列 , 对 预定 义 的 分 组 进 
行 编码 ， 该 序列 可 以 根据 式 (1) 得 到 

D=Sx10+j (1) 

其 中 : j 为 节点 在 当前 层次 的 位 置 序号 (节点 的 位 置 序号 是 从 1 

开始 的 连续 整数 ， 每 个 节点 按照 从 左 到 右 的 顺序 依次 编码 ); D 

为 当前 层次 中 该 节点 的 编码 ;，S 为 当前 层次 该 节点 的 父 节点 编 

码 。 


依据 式 (1) 提 供 的 编码 法 则 ， 可 以 为 一 个 结构 层次 中 的 任意 
节点 编码 。 为 了 便于 展示 编码 流程 的 具体 操作 ， 图 2 以 一 个 典 
型 的 四 层 结构 为 例 展示 了 每 个 节点 的 编码 。 在 编码 完成 之 后 ， 
事务 数据 库 中 每 个 项 目 都 会 蔡 换 为 它 对 应 的 编码 。 


1 N** 
| 1M* Ni1* N2* 
ee 1MK N11 eee N2L 


图 2 一 个 典型 四 层 结 构 编码 案例 图 

之 后 ， 令 k=1x=1， 其 中 : 1<k<x 是 当前 的 层次 序号 ; 
x 是 规定 分 类 结构 的 层次 数量 ， ; 表示 存储 在 当前 的 频繁 项 目 
合 中 的 项 目 数量 。 
对 于 每 一 个 事务 数据 D, ，i 表示 事务 序号 ， 其 上 限 为 数据 
库 中 事务 数据 的 总 量 ， 将 前 了 位 相同 的 项 目 加 在 一 起 ， 计 算 它 
们 的 支持 度 ， 并 将 支持 度 小 于 当前 层次 最 小 支持 度 世 的 小 组 移 
除 。 


I 


对 于 不 同 的 数据 项 目 ， 分 别 预 设 不 同 的 隶属 函数 来 表征 各 
类 项 目的 差异 性 。 对 于 每 一 个 不 同 的 数据 项 目 ， 都 具有 其 独特 
的 属性 以 及 隶属 度 函数 , 之 后 将 每 个 事务 数据 Dp 的 分 组 值 转换 
为 模糊 集合 ， 这 种 转换 可 以 通过 特定 的 隶属 函数 映射 得 到 。 具 
体 转换 的 公式 如 式 (2) 所 示 。 


h 
2 3. /Ri,) O) 


对 事务 数据 集中 的 所 有 事务 按照 式 (2) 的 方法 进行 模糊 集 
合 的 组 合 及 划分 。 根 据 式 〈3) 计算 每 个 模糊 区 域 Z 在 十 五 数 
据 中 的 值 ， 其 中 Suwm; 是 所 有 Z 的 和 。 
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Sum’) = 2% + Zi 十 DZ + t+ 2 G3) 
然后 ， 根 据 式 〈4) 指定 Seftsum; 。 其 中 
最 大 值 (1<1< ht )。 


5 
Setsum, 


setsumy 是 Sums 的 


= Maximuml? (surm,)] (4) 

令 setsum; 是 项 目 Z; 中 具有 setsum; 的 区 域 。 如 果 区 域 
max R; 的 值 sezrsum; 在 当前 层次 大 于 或 等 于 最 小 支持 度 (K)， 
那么 就 将 Setsum; 放置 于 频繁 1- 项 目 集合 。 

针对 不 同 的 层次 序号 值 ， 执 行 下面 不 同 的 过 程 : 

g) 如 果 在 第 2 个 层次 结构 中 产生 了 候选 集合 C+， 其 中 Ct 
表示 第 kk 层 具 有 多 个 候选 项 目的 集合 ， 则 说 明 该 算法 可 以 继续 
应 用 ， 这 些 项 目 都 是 从 各 个 层次 中 通过 模糊 层次 交叉 方法 得 到 
的 频繁 项 目 。 例 如 ， 层 次 2 上 的 候选 2- 项 目 集合 并 不 仅仅 局 限 
于 层次 2 上 的 频繁 项 目 对 ， 层 次 2 上 的 频繁 项 目 也 可 能 与 层次 
1 上 的 频繁 项 目 组 合 形成 层次 2 上 的 候选 2- 项 目 集合 。 但 是 根 
据 分 类 算法 基本 理论 可 知 ， 每 一 个 候选 项 目 集合 中 的 2- 项 目 集 
合 都 必须 包含 至 少 一 个 玫 中 的 项 目 ， 并 且 下 一 个 项 目 不 是 该 项 
目 在 分 类 学 上 的 祖先 。 所 有 可 能 的 2- 项 目 集合 都 被 收集 在 Ct 
中 。 得 到 这 一 集合 后 则 开始 执行 步骤 b。 

b) 如 果 层 次 结构 序号 >2， 需 要 通过 软件 方法 产生 候选 集合 
T* ，7T* 是 层次 k 上 由 7 产生 的 具有 多 个 项 目的 候选 项 
合 ， 其 产生 方法 与 apriori 算法 产生 候选 项 目 集合 的 方法 类 似 。 

对 于 任意 在 7* 中 通过 筛选 获得 的 候选 -项 目 集合 : 

M=(M', M,,...,M,) 

a) 计 算 该 集合 中 每 一 个 事务 数据 下 的 模糊 值 ， 该 计算 需要 

通过 式 (5) 中 的 算法 进行 。 


流 


P=min imum(P, 到 有 ) (5) 
b) 令 Sum, 是 站 的 和 ， 1l1<i<n; 即 
Un = fi + fo + fan + + fn (6) 


c) 如 果 Count, 在 当前 层次 不 小 于 最 小 支持 度 
Count, 插 入 7T*。 

d) 选 择 所 有 满足 自信 度 不 小 于 预定 义 的 自信 度 阔 值 T 的 规 
则 ， 其 中 工 是 预定 义 的 最 小 自信 度 。 


2 多 层次 模糊 关联 挖掘 算 例 分 析 

为 了 具体 前 述 该 算法 的 应 用 流程 和 效果 ， 结 合 具体 算 例 对 
该 算法 进行 实证 性 分 析 ， 在 该 算 例 中 使 用 快 消 品 零售 超市 中 商 
品 的 销售 作为 事务 。 为 简化 验证 过 程 ， 共 随机 选择 七 个 事务 ， 
如 表 1 所 示 。 


K， 就 将 


表 1 快 消 品 销售 事务 
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〈 婴 幼儿 护理 产品 ，5) 
(饮用 水 及 饮料 ，3) 
〈 防 晒 霜 系列 产品 ，3 ) 
(巧克力 食品 ，8) 
( 鞋 及 衣物 护理 产品 ，4) 
(宠物 护理 产品 及 食物 ，6) 
(巧克力 食品 ，5 
(饮用 水 及 饮料 ，7) 
〈 婴 幼儿 护理 产品 ，6 
(沐浴 露 及 洗 发 水 ，4) 


(空气 清新 六 剂 ， 1) 


D, (防晒 霜 系 列 产 品 ，8) 
〈 巧 克 力 食品 ，3 ) 
(口腔 护理 品 ，8) 
( 鞋 及 衣物 护理 产品 ，5) 
(防晒 箱 系 列 产品 ，4) 
(巧克力 食品 ，9) 
(口腔 护理 品 ，9) 
(防晒 逢 系列 产品 ，8) 


使 用 预定 义 分 类 法 ， 它 们 的 分 类 如 图 3 所 示 。 


快 消 品 
人 用 洗 护 产品 宠物 用 品 食品 饮料 
婴 幼儿 沐浴 露 ”防晒 町 饮用 水 巧克力 


人 


强生 联合 利 华 ”保洁 ”欧莱雅 。 百 岁 山 哇 哈哈 ”达能 玛 氏 
图 3 预定 义 的 分 类 

如 图 3 所 示 ， 将 终端 零售 店 所 销售 的 快 消 品 分 为 三 
别 为 人 用 洗 护 产 品 、 宠 物产 品 和 食品 饮料 类 。 每 A 
步 细 分 为 若干 子 分 类 ， 以 确定 快 消 品 的 细 分 行业 和 对 应 品牌 。 
对 于 每 一 类 的 快 消 品 ， 都 有 一 个 具有 唯一 性 的 隶属 度 函 数 ， 根 
据 隶 属 度 函 数 计算 结果 可 以 进一步 把 各 项 目 划 分 为 隶属 度 低 、 


如 
六 
将 
< 并 
虽 

] 


〈 婴 幼儿 护理 产品 ，2) 

《沐浴 露 及 洗 发 水 ，6) 
D (防晒 霜 系 列 产 品 ，3)》 
(口腔 护理 品 ，4) 
〈 鞋 及 衣物 护理 产品 ，5) 


D, (空气 清新 剂 ，6) 


中 、 高 三 种 模糊 区 域 。 
首先 ， 将 图 3 所 示 的 快 消 品 节点 分 类 转换 为 其 等 价 编码 ， 
其 结果 如 表 2 所 示 。 
表 2 例子 的 编码 后 事务 数据 
事务 编号 项 目 
D, (111,2) (112,6) (211,3) (212,4)(311,5) 
D, (111,6) (112,5) (212,3) (222,8) (322,4) (321,6) 
D, (211,4) (221,7) (312,2) (322,8) 
D, (112,10) (221,11) (313,6) 
D, (112,7) (223,6) 
D, (122,9) (142,22) (323,6) (333,9) 
D, (111,9) (122,8) 
令 该 层次 结构 的 两 个 变量 pg 和 < 的 值 均 为 1。 其中, 表示 
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当前 项 目 所 处 的 分 类 层次 ; r 表示 当前 频繁 项 目 集合 的 项 目 数 a) Dl! 项 目 集合 中 的 每 一 个 2 成 员 项 目的 模糊 隶属 度 都 根 
量 。 据 所 处 事务 每 个 项 目的 预定 义 隶 属 度 函数 进行 计算 ， 以 项 目 集 


将 数据 库 中 所 有 上 相似 的 事务 都 合并 为 一 个 大 类 并 将 它们 合 [2** 中 ,3** 低 } 为 例 。 这 一 集合 在 事务 六 中 的 隶属 度 可 以 根 
加 和 。 例 如 ， 可 以 将 项 目 (223,2) 和 (254,2 ) 整合 为 (2**， 据 式 (8) 计 算 。 


E 


4)。 这 一 任务 的 结果 如 表 3 所 示 。 min(1.1,0.8) =0.8 (7) 
表 3 例子 中 的 1 级 表示 利用 该 方法 对 所 有 事务 进行 模糊 隶属 度 计算 ， 得 到 的 结果 
事务 编号 项 目 如 表 6 所 示 。 
D, (1**,8) (2**,7) (3**,5) 表 6 模糊 隶属 度 计算 表 
D, (1**,14) (2**,15) 项 目 编号 。 2**. 中 3**. 低 Min (2x*. 中 ，3s*. 低 ) 
D, (2**,11) (3**,10) 六 1.1 0.8 0.8 
D, (1**,10) (2**,11) (3**,6) D, 0.8 1.3 0.8 
D; (1**,7)(2**,6) D, 0.7 0.4 0.4 
D; (1**,31)(3**,15) D, 0.7 0.9 0.7 
D, (1**,17) D; 0 0.5 0 
根据 对 应 的 隶属 度 函数 ， 将 所 得 到 的 组 转换 为 模糊 集 的 形 D, 0.5 0.8 0.5 
式 。 以 (1**，8) 为 例 ， 根 据 图 3 中 预定 义 的 分 类 ， 这 个 组 是 D, 12 0 0 
遇 于 人 用 洗 护 产品 类 的 ， 需 要 使 用 前 述 的 人 用 洗 护 产品 隶属 度 b) 根据 A 部 分 的 方法 ， 可 以 计算 Ci 中 每 一 个 2- 成 员 集合 
函数 。 在 这 一 隶属 度 函 数 中 , 计算 结果 为 6, 对 应 着 低 区 域 的 隶 ”的 模糊 隶属 度 的 和 。 
属 度 为 0.6， 中 区 域 隶 属 度 为 0.9， 高 区 域 隶属 度 为 0.1。 通 过 这 c) 根据 所 得 到 的 项 目 集合 ,只 有 (2#*. 中 、3#*. 低 ) 的 结果 
种 方式 可 以 计算 得 到 事务 中 的 所 有 项 目 构成 的 等 价 模糊 集 。 大 于 预定 义 的 第 1 层 最 小 支持 度 1.3， 因 此 C1 集合 中 只 有 这 
在 所 有 事务 中 计算 每 一 个 模糊 区 域 值 的 和 ， 得 到 各 模糊 区 ”个 成 员 。 令 s=2， 其 中 s 表示 当前 项 目 集合 中 项 目的 数量 。 由 于 
域 隶 属 度 之 和 ， 如 表 4 所 示 。 CI 只 有 一 个 2- 成 员 集 合 ， 无 法 在 第 2 层 上 产生 一 个 3- 成 员 集 
表 4 各 事务 1 级 模糊 区 域 隶 属 度 之 和 计数 表 合 。 本 文 在 kL 中 添加 了 一 个 单元 ， 进 入 了 步骤 b)。 令 层次 2 和 
项 计数 层次 3 的 min supp =2 ; 则 这 两 层 的 频繁 项 目 集 合 分 别 如 表 7 和 
(1**. 低 ) 1.1 8 所 示 。 由 于 不 存在 第 4 级 ， 因 而 可 以 直接 执行 下 一 步 。 
(1**. 中 ) 1.5 表 7 层次 2 的 频繁 项 目 集合 
《1% 高) 0.6 项 目 集合 计数 
(2**. 低 ) 1.2 
(2**. 中 ) 3.3 i 
C2xx 高) 1.8 S21 2 
(3** 低 ) 2.5 (31*. 高 ) 2.2 
(3#*. 中 ) 0.6 (33*. 中 ) 1.5 
(3**. 高 ) 1.6 (32*. 高 ) 
基于 表 4 中 归纳 得 到 的 各 事务 隶属 度 之 和 的 计算 结 表 8 层次 3 的 频繁 项 目 集合 
A te 项 目 集 合 计数 
糊 区 域 。 在 上 一 步 完 成 之 后 ， 将 各 组 中 挑选 出 的 模糊 区 域 的 隶 a 3 
属 度 分 别 与 预定 义 的 第 上层 的 最 小 支持 度 进行 比较 , 并 加 入 pi 。 a i 
例如 , 假定 第 一 层 的 最 小 支持 度 为 1.3, 从 表 4 来 看 ， 1**. 中 、 Ci 中 ，3 好 低 ) | 
2**. 中 、3**. 低 均 大 于 或 等 于 1.3， 这 些 频 繁 成 员 集 合 被 放置 于 C2ss 低 3xx 低 ) i 
中 。 候 选项 目 集合 PD 由 忆 产 生 ， 由 于 刀 由 1%*% 中 、2**. 中 基于 前 述 步骤 得 到 的 频繁 项 目 集合 ， 可 以 开展 模糊 关联 规 
0 则 的 挖掘， 从 各 层级 频繁 项 目 集中 按照 下 列 规则 检索 所 有 可 能 
表 5 第 2 层 的 候选 项 目 集合 的 规则 。 需 要 注意 的 是 ， 必 须 从 包含 最 小 二 元 项 目的 频繁 项 
项 目 集合 集合 中 提取 规则 。 有 具体 规则 集 如 下 所 示 : 
(1##. 中 ，2#*#. 中 ) 如 果 2**= 中 则 3**= 低 ， 
(1**. 中 ，3**. 低 ) 如 果 3**= 低 则 2**= 中 ， 
(2**. 中 ，3**. 低 ) 如 果 3**= 低 则 21*= 中 ; 
对 p! 中 每 一 个 2 成 员 项 目 集合 执行 下 列 步 又 : 如 果 214= 中 风 34*= 低 ， 
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如 果 211= 中 则 3**= 低 ; 


如 果 3**= 低 ， 山 


为 了 获得 符合 用 
应 的 自信 度 


所 得 结果 如 表 9 所 示 。 


的 规则 ， 必 须 计算 每 条 规则 对 


表 9 所 有 规则 的 


关联 规则 自信 度 
如 果 2*= 中 风 1.2 
如 果 3**= 低 则 2*= 1.1 
如 果 3**= 低 0.8 
如 果 21*= 中 则 3**= 0.6 
如 果 211= 中 由 1.2 
如 果 3**= 低 ， 1.3 


将 表 9 中 所 有 规则 的 


结果 与 预定 义 的 最 小 自信 


度 阔 值 进行 比较 ， 


于 预定 义 最 小 


的 规则 作为 最 终 规则 挖掘 结果 。 例 如 ， 勾 
置 为 0.9， 最 终 的 规则 就 是 : 

如 果 2*= 中 则 3**= 低 ; 

如 果 3**= 低 则 2*= 中 ; 

如 果 211= 中 则 3**= 低 ; 

如 果 3**= 低 ， 则 211= 中 。 


| 


CD 


[I 果 最 小 自 


实验 对 比 与 分 析 


文中 提出 了 基于 多 层次 模糊 关联 规则 的 数据 挖掘 算法 ， 


通过 具体 算 例 详细 阐述 了 算法 应 用 流程 ， 验 证 了 其 在 实际 应 用 


中 的 可 行 性 与 有 效 性 。 为 了 进 
该 算法 性 能 的 优越 性 ， 
所 提出 的 算法 对 1000 张 1 
置 为 i5 酷 豁 双核 、8 GB 运行 内 存 。 

便利 店 中 所 有 的 商品 可 以 分 为 6 类 ， 每 一 类 都 具有 预定 义 


步 分 析 在 大 量 数据 信息 工 况 


于 PC 机 上 通过 MATLAB 仿真 平台 利用 


E 利 店 购物 票据 信息 进行 分 析 。PC 配 


的 隶属 度 函 数 。 基 于 购物 票据 上 的 信息 和 预定 义 的 数据 来 挖掘 


这 些 项 目 之 间 的 关联 规则 。 预 定义 类 别 在 第 一 层 具有 6 个 节点 ， 
表示 测试 中 的 项 目 名 称 ; 第 二 层 有 12 个 节点 , 分 别 表示 细 分 种 


类 或 其 他 特定 产品 的 不 同类 别 信息 ; 第 三 


表示 这 些 产品 的 生产 公司 和 厂家 。 


民有 45 个 节点 , 分 别 


购物 票据 上 的 交易 信息 包含 商品 名 称 、 型 号 、 单 价 和 商品 
Ph， 不 能 多 次 包含 同一 个 项 目 。 


的 购买 量 。 在 每 一 笔 交 易 
图 


则 4 展示 了 1 000 笔 交 易 中 ， 最 小 支持 度 为 3 的 情况 下 挖 


掘 到 的 规则 数量 与 不 


是 因为 随 着 交易 数量 


信和 度 之 间 的 关系 。 随 着 而 
究 中 交易 数量 的 增加 ， 所 挖掘 到 的 规则 数 
的 增加 ， 频 繁 项 目的 数量 也 会 增加 ， 从 而 


量 也 会 逐渐 增加 。 这 


导致 通过 关联 挖掘 可 以 在 最 小 支持 度 一 定 的 情况 下 得 到 更 多 的 


规则 。 与 此 同时 ， 根 : 
值 ， 会 使 得 所 挖 气 到 的 关联 规则 数量 


居 结 果 可 知 ， 增 加 预定 义 的 最 小 自信 度 的 


时 下 降 。 


自信 度 阔 值 
言 度 阔 值 设 
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图 4 不 同上 


所 提出 多 层次 模糊 关联 挖掘 算法 的 一 个 引 


信和 度 下 的 关联 规则 数量 


要 优点 就 是 


有 


可 以 根据 用 户 的 需要 ， 


在 不 同 的 层次 上 挖 


昌 关 联 规则 的 能 


即 在 提出 的 算法 中 ， 用 户 可 以 精确 地 指定 需要 挖掘 哪 一 层次 的 


规则 ， 从 而 保证 获得 的 乡 
求 。 这 是 因为 在 所 提 


也 满足 用 户 的 使 用 需 


TT 


的 算法 中 ， 不 同 


以 分 别 定 义 的 ， 所 以 可 通过 提高 某 一 层次 最 小 支持 


层次 的 最 小 支持 度 是 可 
度 的 值 ， 使 


得 程序 在 该 层 挖掘 到 的 规则 数量 为 0。 图 5 和 6 展示 了 1000 次 


交易 中 提出 的 算法 与 其 


他 方法 在 结构 层次 1 和 


则 数量 与 预定 义 最 小 支持 度 之 间 的 关系 。 从 民 


挖掘 到 的 规 
可 以 看 出 ， 提 


出 的 算法 相 比 于 其 他 方法 在 不 同 的 最 小 支持 度 下 ， 能 够 更 精准 


地 获得 规则 数量 ， 即 能 够 挖掘 出 更 小 范 
算法 挖 气 精 度 更 高 ， 其 中 


| | | | | 
: ! | ! | | 
吓 150 | -SC 人 
米 从 由 1 1 1 1 


层 规则 数量 


D 
So 


第 


图 5 第 1 层 中 不 同 最 小 支持 度 对 应 的 挖 气 规 则 数量 


图 6 第 2 层 中 不 F 度 对 应 的 挖掘 规则 数量 


根据 关联 挖掘 算法 应 用 
5 用 的 计算 资源 是 用 户 重点 考 
过 长 ， 将 在 很 大 程度 上 失去 对 用 户 节 


出 的 算法 与 其 他 算法 各 


比 。 在 文献 [5,7] 所 提 昌 


围 的 符合 要 求 的 商品 ， 


| 一 0 十 提出 的 算法 
交 献 0 方法 
全 二 文献 $ 方 法 


可 知 ， 算 法 的 运行 时 间 和 

之 一 。 若 算法 运行 时 间 
到 7 展示 了 所 提 
性 能 对 


由 六 


定义 的 ， 最 小 支持 度 和 求 局 


对 应 于 所 有 的 项 


目 。 


值 
为 
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了 保证 算法 控制 变量 对 比 ， 挖 掘 最 小 自信 和 度 为 0~6 时 的 第 一 层 
和 第 二 层 的 规则 。 图 7 展示 了 算法 运行 时 间 的 比较 结果 ， 结 果 
AAA 
支持 度 的 情况 下 ， 运 行 时 间 均 更 短 。 这 是 因为 提出 的 方法 中 运 
用 改进 的 挖掘 关联 规则 ， 能 够 更 高 效 地 获得 具有 普 适 性 和 可 用 
性 的 规则 ， 可 见 提 出 的 算法 不 仅 能 按照 用 户 的 意愿 挖掘 不 同 层 
次 的 规则 ， 而 且 还 可 以 减少 程序 的 运行 时 间 ， 有 利于 用 户 满意 
度 的 极 大 提升 。 


一 


| 


五 


3.5 4 4.5 
最 小 支持 度 


图 7 不 同 最 小 支持 度 下 算法 运行 时 间 比 较 


4 ”结束 语 


在 详细 阐述 现 有 关联 规则 挖 气 算法 的 研究 现状 和 主要 挑战 
E 础 上 ， 综 合 利 用 模糊 集 理论 、 多 层 结构 分 类 法 以 及 数据 挖 
掘 理论 ,本 文 提 出 了 一 种 基于 多 层次 模糊 关联 规则 的 挖掘 算法 ， 
可 用 于 提取 定量 数据 中 的 隐 仿 信息。 该 方法 采用 高 频 项 目 集合 ， 
通过 不 断 深 化 迭代 的 方法 形成 自 顶 向 下 的 挖掘 过 程 ， 具 有 根据 
户 的 倾向 挖掘 不 同 层次 的 关联 规则 的 能 力 ， 能 够 为 不 同 的 项 
目 定义 不 同 的 隶属 度 函 数 ， 从 而 满足 不 同 种 类 商品 的 定制 化 分 


Fes 
中 


| 


hr 


通过 对 快 消 商品 终端 店铺 和 便利 店 历史 数据 库 的 关联 挖掘 
实验 ， 证 明了 与 相关 研究 成 果 相 比 ， 所 提出 基于 多 层次 模糊 关 


联 规则 算法 挖掘 精度 更 高 、 并 且 能 够 显著 减少 算法 的 计算 时 间 ， 
有 利于 用 户 满意 度 的 提升 。 
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